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基于 深度 双向 模型 和 特征 融合 的 视频 转 文字 研究 “ 


宁 培 阳 ， 史 景 伦 ， 张 荣 锋 ， 印 威 
(华南 理工 大 学 电子 与 信息 学 院 , 广州 510640) 


摘 要 : 自动 生成 视频 的 自然 语言 描述 ， 是 一 个 非常 具有 挑战 性 的 研究 热点 。 基 于 深度 BLSTM 模型 和 CNNs 特征 的 
方法 ， 能 够 学 习 到 视频 序列 的 全 局 时 空 关 联 信息 。 针 对 视频 转 文字 时 面临 的 准确 率 低 以 及 计算 复杂 度 高 的 问题 ， 提 出 
了 深度 BMGU 模型 ， 从 而 在 保持 深度 BLSTM 模型 结构 优势 的 同时 提高 计算 效率 ; 还 将 原始 视频 帧 的 CNN 特征， 与 
经 过 Haar 特征 预 处 理 后 的 视频 的 CNNs 特征 进行 后 期 融合 ， 从 而 增加 了 训练 特征 的 多 样 性 , 进而 提升 了 视频 转自 然 语 
言 的 实验 效果 。 在 M-VAD 和 MPILMD 数据 集中 ， 相 对 原 S2VT 模型 ， 所 提 方 法 分 别 将 METEOR 分 数 从 6.7 及 7.1 提 
高 到 8.0 和 8.3。 结 果 表 明 所 提 方 法 有 效 地 改善 了 原 S2VT 模型 的 准确 率 和 语言 描述 效果 。 
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Research on video description based on deep bidirectional model and feature fusion 


Ning Peiyang, Shi Jinglun, Zhang Rongfeng, Qiu Wei 
(School of Electronic & Information Engineering, South China University of Technology, Guangzhou 510641, China) 


S — Abstract: Automatically generating a natural language description of a video is a challenging work for computer vision. The 
method based on deep bidirectional long-short term memory (DBLSTM) and CNN feature, had the ability to learn global 
spatiotemporal correlation information of videos. Focusing on the low accuracy and high computational complexity of video to 
© text, this paper proposed a new method, which based on the deep bidirectional minimal gated unit (BMGU) in order to improve 
> the computational efficiency while maintaining the advantages in structure of the deep BLSTM model. In the same time, by 
merging the CNNs feature of the original frames and the CNNSs feature of the frames with Haar feature increased the diversity 
of training features and improved the effect of the video to text. By using the datasets of M-VAD and MPII-MD, comparing to 
the original S2VT model, the proposed method is able to increase the Scores from 6.7 to 8.0 and from 7.1 to 8.3 in METEOR. 
The results show that the proposed method can effectively improve the accuracy and the description of the videos of the original 


S2VT model. 
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字 方 法 ， 在 性 能 上 显著 地 超越 了 以 往 的 非 深度 学 习 方法 ， 但 也 
仍 存 在 若干 方面 需要 改进 。 例 如 ， 为 了 获取 视频 帧 中 所 包含 的 

视频 转自 然 语言 (video captioning, 又 称 自动 生成 视频 的 自 ” 语义 信息 ， 一 般 先 使 用 CNN 模型 来 提取 视频 帧 的 卷 积 特征 虽 ， 
然 语 言 描述 ), 其 主要 任务 是 对 视频 进行 理解 和 分 析 , 并 进一步 。 卷 积 特征 中 包含 视频 帧 的 空间 信息 。 然 而 ， 视 频 描述 数据 集中 


获取 有 用 的 语义 信息 ， 然 后 ， 将 这 些 视频 帧 中 的 语义 信息 与 应 ”的 视频 帧 常常 存在 背景 繁杂 〈 存 在 多 种 对 象 ) 的 情况 ， 某 些 


lf 


0 5 


mn 


的 语义 环境 进行 关联 ， 从 而 将 视频 帧 序列 转换 为 自然 语言 接 CNNs 模型 提取 这 类 视频 帧 的 特征 时 性 能 会 降低 ， 导 致 视频 转 
述 趾 。 视频 转自 然 语 言 可 用 于 智能 安防 、 人 机 交互 、 视频 检索 等 ” ”文字 方法 不 能 输出 较为 准确 的 自然 语言 描述 。 另 外 ，LSTM 是 


诸多 领域 ,具有 较 高 的 应 用 价值 和 现实 意义 。 S2VT 方 法 的 核心 模型 , 它 通过 将 RNN(recurrent neural networks ) 


> 


随 着 深度 学 习 在 计算 机 视觉 的 诸多 领域 的 逐步 延伸 ， 以 ” 无 门 的 结构 改进 为 具有 三 个 门 结构 和 两 个 隐藏 状态 的 结构 ， 较 


CT) 


S2VTIJ (sequence to sequence-video to text) 为 代表 的 视频 转 文 ” 好 地 克服 了 梯度 弥散 或 梯度 爆炸 的 问题 ， 从 而 有 具有 对 长 序列 信 
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的 参数 ， 降 低 了 方法 的 计算 效率 ， 不 利于 将 其 应 / 


各 


息 进行 较 好 地 学 习 和 建 模 的 能 力 习 。 然 而 LSTM 增加 了 大 量 


基于 深度 双向 相 


求 高 、 计 算 条 伯 
实验 发 现 ， 门 结 
好 ， 一 些 较 为 简 六 
其 至 还 能 够 收 到 比 LSTM 更 好 

针对 S2VT 方法 
本 文 提出 了 基于 深度 双向 循环 ? 
feature) 的 视频 转 文字 方法 , 具 


F 严 苛 的 


场合 。 


构 的 数量 越 多 并 不 意味 着 最 终 的 实验 效果 会 更 
氏 了 计算 复 条 度 的 同时 


并 日 


和 的 RNN 模型 在 降 1 


(其 编码 


的 时 序 信息 的 问 
法 以 学 习 到 全 局 


恨 基 于 单 向 LSTM) 不 能 


的 效果 。 
存在 的 描述 准确 率 


日 


的 时 间 关 


Haar 特征 预 处 至 
经 网 络 提取 视频 
进行 预 处 理 ， 以 达到 抑制 繁杂 
目的 ， 再次， 针对 深度 BLSTM 计算 复杂 度 高 的 
于 深度 BMGU 的 视频 转 文字 方法 。 实验 表明 
型 的 方法 ， 不 仅 能 够 有 效 地 提高 计算 效率 ， 而 且 


的 视频 


氏 、 计 算 复杂 等 问 
经 网 络 中 和 哈 尔 特征 (SI (Haar 
体 如 下 : 首先 ， 针对 S2VT 模型 
分 学 习 视频 序列 中 前 后 帧 
题 , 提出 基于 深度 双向 LSTM 的 视频 转 文字 方 
其 信 息 。 其 次 ， 针 对 视频 帧 具有 背景 
繁杂 的 特点 ， 而 影响 对 主体 对 象 的 特征 提取 的 问题 ， 提 出 


于 实时 性 要 


， 近 年 来 Chung 等 人 器 通过 
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络 学 习 帧 序列 与 词 序列 之 间 的 映射 关系 ， 完 成 特征 和 语言 的 关 
联 建 模 。 另 外 , 图 中 “<Pad>” 表 示 用 全 零 向 量 作 为 输入 来 填充 相 
应 的 位 信息 , 输入 “<BOS>” 则 表明 帧 序列 已 输入 完毕 , 用 于 指 


题 ， 


苦于 


贞 增 强 方法 ， 即 在 使 用 


VGG 等 卷 积 神 


陆 的 隐 式 特征 前 , 通过 提取 Haar 特征 对 视频 帧 
背景 信息 和 强化 主体 对 象 信息 的 


问题 ， 提 出 基 


的 效果 也 与 深度 BLSTM 模型 相当 。 


1 ”视频 转自 然 语言 原理 与 S2VT 模型 


， 这 种 基于 简 


化 模 
自然 语言 描述 


示 模 型 从 编码 阶段 切换 到 解码 阶段 〈 即 开始 预测 词 序 列 )。 
“<EOS>” 表 示 S2VT 模型 预测 的 词 序 列 已 输出 完毕 。 

LSTM 是 S2VT 模型 实现 式 (2) 功 能 的 核心 算法 ， 
FE， 假设 在 时 刻 t 输入 的 变量 是 
有 , 而 记忆 单元 的 状态 是 ci, 由 
下 [5]. 


具体 计算 
~， 对 应 的 隐藏 层 状态 参数 是 
1 在 1 时 刻 LSTM 单元 中 的 公式 如 


i =o(W,x, + Wh +b,) G3) 
f=oWyx + Wh +b,) (4) 
0,=o(W,x, +W,h +b,) (5) 
g, = OWx, + Wh +b.,) (6) 

c=fOc+iOg, (7) 

h=f O(c,) (8) 


在 式 (3) ~ (8) 中 , 六 fo、g 分 别 表 示 LSTM 的 输入 门 、 
遗忘 门 、 输 出 门 、 输 入 调制 机 ,对 应 的 各 门 偏 置 向 量 为 b;、br、 
be、bg。hiER" 表示 n 个 隐藏 状态 参数 。Wip (aE {x,h}, bE 
和 h,0,8} ) 表示 输入 或 隐藏 层 状态 参数 a 到 门 b 的 权重 矩阵 。 
o(x) 是 sigmoid 函数 ，q(x) 是 双 曲 正切 函数 ， 而 〇 是 逐 元 素 点 积 
(element-wise product) 运算 。 通 过 式 (3) ~(8)，S2VT 模型 
依次 迭代 求 出 各 时 刻 的 隐藏 层 参数 hi,h2,.…. 有 .hy， 步 求 


进 


视频 转自 然 语言 的 任务 ， 在 数学 上 可 以 表述 为 : 给 定 视频 出 隐藏 层 参数 关于 词 yy (三 1,2,…,m) 的 条 件 概率 pQxhnt)， 从 
的 帧 序列 入 (x,xz.…xo.… xn), 给 出 关于 概括 视频 语意 信息 的 词 序 ” 而 得 到 预测 的 词 序列 。 
列 YOzy2 yo.….ym) 的 条 件 概率 ， 即 
2 ”改进 方法 的 提出 
p(Y /XR) = p(y. yb... ) (1) 
其 中 : 帧 序列 长 度 n 和 词 序列 长 度 m 是 可 变 的 。 一 般 地 ,nz#m ”2.1 基于 DBLSTM 与 Haar 特征 预 处 理 的 视频 转 文 字 方 法 
且 nm。 基于 循环 神经 网 络 的 视频 转 文字 方法 ， 通 过 构造 “ 编 首先 ， 针 对 S2VT 模型 的 基于 单 向 LSTM 编码 层 对 视频 帧 
码 器 -解码 器 (encoder-decoder ) ”模型 ， 从 而 使 用 隐 式 特征 来 实 。 ”特征 利用 不 充分 的 问题 ， 采 用 深度 双向 LSTM (DBLSTM) 网 
现 帧 序列 和 词 序列 的 联合 建 模 。 相 应 地 ， 可 把 式 (1) 改 写 为 络 对 方法 进行 改进 。 基 于 深度 双向 LSTM 的 视频 转 文字 方法 原 
nm 里 图 如 图 2 所 示 。 
P(Y IX) = p91 yb) = LP hwy) O) A 
1 | 
EH <Pad> 
vvroanfawaitsaaustgyt, Eeeng 国 量 古国 ， 
描述 视频 内 容 的 功能 全 个 经 典 的 i | re] es] es] reo] | 
基于 LSTM 的 视频 转 文字 模型 ， 能够 生成 自然 语言 的 句子 来 描 1 Ls™l esrwh listal fish frstw i 
述 视频 中 所 发 生 的 相应 事件 。 De | 
1 LSTMH jsTMH LSTM HPsrMF HLsTM| | 正 向 传输 1 
i | 
oe ss ee | | 下 本 1 LSTMI HLSTMI ESTMHHHsTMkHHEsTrM ii 
第 一 层 : 于 | | lL BLSTM 反 向 传输 1 
村 征 建 模 LST™ "LSTM—*LST™ lis™ Ls™ sr lLs™™| sryl |. 4 正 六 传 本 内 
| LSTMH STMH STM srM LEsrM | 全 .1 
<Pad> 一 ] <Pad> 一 ] <Pad> — <BOS> | | ci pe a | 
第 二 层 : LSTML_ .LSTM_ .LSTM LSTMHHJLSTMHHJLSTMHHJLSTMHLJLSTM I 深度 双向 LSTM 编 码 后 的 视频 特征 
特征 和 语言 T T 了 一 了 1 1 
联结 建 模 | He 8oes back 一 inside <EOS> SRR RE 视觉 模型 _ 1 
本 本 Cr - ~ = 一 :一 :一 :一 :一 :一 :: a 
编码 阶 眉 迄 码 阶段 . p> He gpes de 
区 1 S2VT 模型 原 理 区 | | >| = 全 全 二 中 LSTML 1 
1 He goes back insidé <EOS、 
Fig.1 Schematic diagram of S2VT model 人 
如 图 1 所 示 ，S2VT 模型 通过 VGG-16 外 网 络 获取 输入 视频 图 2 ”基于 深度 双向 LSTM 的 视频 转 文字 方法 原理 图 
序列 的 卷 积 特征 (CNNs 特征 )， 再 将 特征 序列 按时 序 地 输入 第 Fig.2 ”Schematic diagram of video-to-text based on depth bidirectional 
居 LSTM 进行 特征 建 模 ; 在 第 二 层 LSTM 中 , 通过 LSTM 网 LSTM 
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其 中 ， 一 个 正 向 传输 信息 的 LSTM 和 一 个 反 向 传输 信息 的 义 信 息 。 
LSTM 组 成 了 BLSTM，2 个 BLSTM 再 按 图 3 中 的 连接 组 成 2.2 基于 DBMGU 与 Haar 特征 预 处 理 的 视频 转 文字 方法 


DBLSTM。 关 于 两 层 LSTM 隐藏 层 状态 参数 的 融合 ， 一 般 使 用 将 DBLSTM 模型 应 用 于 视频 转 文字 ， 在 获得 效果 提升 的 
如 下 的 方法 7: 同时 ， 还 应 注意 到 : 如 前 文 述 及 ， 由 于 模型 参数 的 明显 增多 ， 

R=H (Wax + Wiha th) (9) ”计算 复杂 度 增 大 ， 往 往 增 加 了 训练 时 间 ， 不 利于 将 其 应 用 于 实 

hh =H (Ws + Wh +b;) (10) 时 性 要 求 高 的 场景 ,针对 这 些 问题 ,利用 MGUI(minimal gated 

六 三 WW 及 十 后 朋 二 刀 (11) unit) 模型 的 精简 性 以 简化 计算 参数 ， 从 而 减少 训练 时 间 。 而 针 

对 视频 帧 提取 Haar 特征 ,往往 能 够 提供 较 好 的 语义 信息 , 因此 ， 


其 中 : 天、 天 分 别 是 正 向 传输 层 、 反 向 传输 层 中 LSTM 在 1 时 四 
提出 基于 DBMGU 模型 与 特征 融合 的 视频 转自 然 语言 方法 。 

刻 的 隐藏 层 状态 参数 ，HGO) 为 LSTM 的 激活 函数 ，yi 是 融合 后 最 少 门 单元 MGUL 作为 RNNs 模型 的 一 种 简化 模型 ， 其 
" 其 余 参 数 的 含义 与 式 (3)~(8) 的 参数 含义 类 似 。 主要 特点 是 仅 具 有 1 个 门 结构 ， 因 而 被 命名 为 “最 少 门 单元 ”。 

过 将 两 个 BLSTM 网 络 的 堆 半 而 构成 深度 BLSTM 网 络 ， 在 1 时 刻 MGU 单元 的 计算 公式 如 下 (计算 符号 含义 与 式 (3)~(8) 
a RNN 网 络 的 一 种 改进 方法 。 这 使 得 新 网 络 结构 致 ): 
有 下 面 的 优点 : 首先 , BLSTM 除了 能 够 学 习 到 前 面 帧 的 相关 信 =oWyh + Wy +b) (12) 
息 (information in previous frames )， 还 能 够 学 习 到 未 来 帧 的 相 
关 信 息 (information in future frames )， 通 过 前 后 帧 的 关联 学 习 = Wn (Ff OR) Wa +b,) 和 
以 及 上 下 文 的 关联 学 习 ， 因 而 可 利用 视频 中 的 全 局 时 间 信 息 以 

h=d-f)Oh ,+f on (14) 


增强 视频 -句子 对 的 学 习 效 果 , 从 而 提高 了 视频 转自 然 语言 的 准 
确 率 。 这 样 就 可 以 有 效 克服 单 向 LSTM 只 能 利用 前 面 帧 的 相关 MGU 模型 的 参数 远 远 比 LSTM 要 少 (相同 条 件 下 约 为 
信息 的 局 限 性 。 其 次 ， 在 深度 神经 网 络 (deep neural network) LSTM 模型 的 二 分 之 一 ), 理论 上 其 计算 复杂 度 明 显 低 于 LSTM， 
中 ， 通 过 拓宽 网 络 的 宽度 (widerand wider) 和 增加 网 络 的 深度 。 ”从 而 MGU 模型 有 效 地 降低 了 计算 开销 , 进而 提高 了 训练 速度 。 

(deeper and deeper) 是 优化 并 提高 模型 性 能 的 两 个 主要 方向 : 其 次 ，Chung 等 人 的 研究 表明 ， 拥 有 门 结构 的 RNNs 类 网 络 ， 

相对 应 于 CNNs 网 络 在 空间 上 的 深度 ，LSTM 则 是 时 间 上 的 深 ”相对 于 简单 地 使 用 双 曲 正切 函数 且 没 有 门 结构 的 RNNs 网 络 ， 

度 网 络 ， 双 向 LSTM (BLSTM) 相对 单 向 LSTM 是 在 时 间 维 度 一般 来 说 ,在 实验 效果 上 有 较 显 著 的 提升 名。MGU 模型 遵循 了 
上 更 深 (deeperintime) 的 网 络 ， 因 此 ，BLSTM 相 比 LSTM 增强 ”这 个 结论 ， 保 留 了 必要 的 一 个 门 结构 ， 使 得 序列 数据 的 学 习 效 
了 网 络 在 时 间 上 的 依赖 性 ， 而 深度 BLSTM 则 进一步 强化 了 其 。” 果 可 以 得 到 保证 。 为 了 直观 表现 LSTM、MGU 一 个 时 间 步 内 计 
时 间 上 的 依赖 性 。 增 加 时 间 深 度 的 方式 ， 增 加 了 网 络 的 参数 ， 算 复 杂 度 的 差异 ， 参 考 周 国 兵 等 人 00 的 研究 工作 ， 绘 出 两 者 的 


也 使 得 训练 时 可 以 增强 视频 和 自然 语言 的 关联 学 习 ， 从 而 进 单元 结构 如 图 4 所 示 。 
步 提高 了 视频 转 文字 的 训练 和 学 习 效果 ， 进 而 提高 了 视频 转 文 2 i 
字 的 实验 效果 〔 在 实验 结果 上 的 直观 表现 为 METEOR 分 数 的 了 人 
几 、 | ——”O tanh| | 
提高 )。 当然 , 更 深 的 网 络 就 包含 了 更 多 的 参数 ， 因 而 也 增加 了 : 不 | 
: filo|l 可 cg an Or| 0 六 | 〇 : 
计算 复杂 度 。 pz 4 人 4 | i 
纹 4 国 .可 [各 吕 遇 十 二 f 林 贞 革 和 i | | 一 一 一 
其 次 ， 针 对 视频 繁杂 的 背景 可 能 影响 CNN 对 主体 特征 的 
提取 的 情况 , 对 视频 帧 按 RGB 三 个 通道 进行 分 离 , 并 逐 通道 进 (a) LSTM 
行 一 阶 Haar 小 波 滤波 ， 滤 除 细节 信息 ， 最 后 重组 ， 从 而 得 到 包 ea 
| 
含 了 Haar 特征 的 视频 帧 。 流 程 如 图 3 所 示 。 | 大 [=[Gh[aa hlG i 
: | 个 h 
| | 1 © 下 
he | 4 
好 
(b) MGU 
预 处 理 后 、 、 
原始 视频 帧 逐 通 道 滤波 的 视频 帧 了 4” 一 个 时 间 步 内 LSTM 与 MGU 的 计算 流程 
图 3 视频 帧 提取 Harr 特征 的 流程 区 Fig.4 Calculating process of LSTM and MGU within a time step 
Fig.3 Flowchart of extracting Harr features fron video frames DBMGU 的 构造 方法 与 DBLSTM 的 构造 方法 相同 。 基 于 
对 比 图 3 中 处理 前 后 的 图 片 可 知 ， 经 过 提取 Haar 特征 DBMGU 模型 和 特征 融合 的 视频 转 文字 方法 ,是 将 DBLSTM 模 


后 的 视频 帧 中 ， 视 频 帧 的 主体 信息 得 到 了 保留 和 增强 ， 而 较为 。 型 蔡 换 为 DBMGU 模型 , 同时 为 了 便于 对 比 , 也 采用 经 Haar 特 
繁杂 的 背景 信息 则 相对 被 削弱 了 一 些 ， 从 而 提供 了 帧 序列 的 语 E 预 处 理 后 的 特征 来 提高 模型 的 效果 。 


渤 


= 
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3 ”模型 实验 与 分 析 
3.1 实验 方法 


如 图 3 所 示 , 经 过 


得 到 了 增强 ， 
一 定 的 语义 信 


条 


包含 了 Haar 特征 的 
E 不 同 的 新 特征 。 


宁 培 阳 ， 等 : 基于 深度 双向 模 


同时 ， 鉴 于 有 效 的 特 和 


频 转自 然 语 言 


述 的 准确 率 和 语言 效果 


而 增加 了 训练 


帆 的 CNNs 特征 与 包含 Haar 特征 的 CNNs 特征 


Haar 特征 预 处 理 后 ， 视 频 中 的 主体 目标 
而 其 他 次 要 目标 则 相对 地 被 削弱 了 ， 从 而 提供 了 
息 ， 再 对 这 些 视频 帧 提取 CNNs 特征 ， 因 而 获得 
CNNs 特征 ， 这 是 与 原 视频 帧 的 CNNs 特 


型 和 特征 融合 的 视频 转 文字 研究 
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2004 年 提出 的 评价 指标 。 他 们 的 研究 表明 ， 在 考虑 了 召回 率 的 
指标 相 比 于 单纯 基于 准确 率 的 指标 ， 其 结果 和 人 工 判断 的 结果 
有 较 高 相关 性 。 因而 METEOR 评测 指标 常 作为 机 器 翻译 、 图 像 
转自 然 语 言 、 视 频 转 自然 语言 等 领域 的 评价 参考 ， 例 如 
Rohrbach 等 人 04 在 他 们 的 视频 转 文字 研究 中 就 以 METEOR 作 
为 客观 评价 指标 。 模 型 训练 的 主要 超 参数 (Hyper Parameter ) 

见 表 1。 另 外 , 采用 的 初始 学 习 率 为 0.01, 学 习 率 调整 方法 为 : 


正 融 合 往 


往 能 够 提高 视 


,本文 


也 将 原始 视频 


进行 融合 ， 从 


特征 的 种 类 , 进而 增强 了 视频 特 生 


光化学 习 的 效 
征 与 包含 了 Haar 特征 的 CNNs 特征 进行 融合 , 以 提高 视频 转自 


然 语 言 描述 的 


学 习 的 丰富 性 ， 


果 。 如 图 5 所 示 ， 本 文 将 原始 视频 帧 的 CNNs 特 
实验 效果 。 
vaG Haar VGG | | 
深度 双向 RNNs 深度 双向 RNNs 


编码 后 的 视频 特征 编码 后 的 视频 特征 


. 视觉 模型 . 


InnerProduct 


+ 
Softmax 


on 
言 模型 型 


图 5 视频 转自 然 语言 言 实验 的 模型 杠 


次 【. 


Fig.3 Model framework of video-to-natural language 
在 基于 小 波 与 DBLSTM 的 视频 转自 然 语言 方法 中 ， 图 中 
“深度 双向 RNN” 具 体 为 DBLSTM 模型 。 在 DBMGU 与 特征 融 
合 的 视频 转自 然 语言 方法 中 ， 图 中 “深度 双向 RNN”* 则 具体 为 
DBMGU 模型 。 为 了 便于 描述 ， 在 以 下 实验 结果 图 表 中 ， 将 基 
于 DBLSTM 和 特征 融合 的 视频 转自 然 语 言 


方法 简称 为 


“DBLSTM_VGG&Wavelet_Fusion”， 将 基于 DBMGU 与 特征 融 
合 的 视频 转自 然 语言 方法 简称 为 “DBMGU_VGG & 


Wavelet Fusion”。 


embedding ) 深 


为 了 充分 利 
列 和 词 序列 的 


本 文 使 用 


CaffeL2 (convolutional architecture for fast feature 


度 学 习 框架 实现 实验 模型 。 使 用 M-VAD 和 MPII- 
MD mi wi 


时 则 仅 考虑 每 


关于 视频 标注 


j] METEOR 计 


a 


METEOR03 是 Lavir 等 人 发 现在 评价 指标 中 召 区 


长 度 ， 自 适应 地 抽取 数量 


合适 的 视 


] 样 本 的 信息 ， 在 训练 时 综合 考虑 每 个 样本 的 帧 序 


频 帧 ;在 测试 


个 样本 的 帧 序列 长 度 对 视频 帧 进行 采样 。 另 外 ， 
句子 与 本 文 方法 所 生成 多 子 的 对 比 及 评价 ， 则 使 


F 测 指标 作为 本 文 方法 输出 语句 的 客观 评价 指标 。 


nm 


率 的 意义 后 了 


每 2 万 次 迭代 将 学 习 率 降低 为 原来 的 二 分 之 一 : 训练 优化 方法 
为 Mini-Batch 下 的 SGD，momentum 设 定 为 0.9; 正则 化 方法 
为 Dropout。 


表 1 模型 训练 的 主要 超 参数 


Table 1 Hyper parameter of model training 


超 参数 值 
RNN 模型 的 time step 80 
RNN 模型 的 输出 向 量 长 度 1000 
batch size 16 
迭代 次 数 60000 
视频 特征 降 维 的 全 连接 层 尺寸 4096*500 
词 向 量 降 维 的 全 连接 层 尺寸 46168*500 
生成 词 向 量 的 全 连接 层 尺寸 1000*46168 


3.2 ”实验 结果 分 析 
参考 Rohrbach 等 人 [的 实验 分 析 方法 ， 通过 METEOR 指 

标 评测 ， 以 及 对 标注 句子 与 两 种 方法 生成 的 句子 进行 分 析 比 较 

两 个 角度 ， 对 模型 效果 进行 评估 。 

首先 ,在 4 万 ~6 万 次 迭代 之 间 ， 取 偶数 千 次 达 代 下 的 模型 


进行 评测 ， 整 理 得 到 两 种 方法 的 METEOR 评测 分 数 与 迭代 次 
数 的 关系 如 图 6 所 示 。 


一 和 -DBLSTM_VGG&Wavelet Fusion 
一 上 一 DBMGU VGG&Wavelet Fusion 


METEOR 分 数 /o6 


40 42 44 46 48 50 52 54 56 58 60 
和 迭代 次 数 / 千 次 
(a) M-VAD 数据 集 
(a) M-VAD dataset 
-而 ~ DBLSTM VGG&Wavelet Fusion 


一 上 一 DBMGU VGG&Wavelet Fusion 


8.5 
8.3 
8.1 
rd 
7.5 


METEOR 分 数 /o6 


40 42 44 46 48 50 52 54 56 58 60 
迭代 次 数 / 千 次 

(b) MPIL-MD 数据 集 

(b)MPII-MD dataset 


6 ”两 种 方法 的 METEOR 评测 分 数 与 迭代 次 数 的 关系 


Fig.6 Relationship between METEOR evaluation scores and iterations of 
two methods 

分 析 图 6 可 知 ， 两 种 方法 的 METEOR 评测 分 数 均 较为 稳 
定 ， 可 以 说 明 它们 在 不 同 的 数据 集 下 均 能 较 好 地 收敛 。 将 图 6 
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中 两 种 方法 的 METEOR 评测 分 数 的 峰值 整理 ， 并 与 其 他 视频 
转 文字 方法 的 METEOR 评测 分 数 的 峰值 比较 ， 结 果 如 表 2 所 
示 。METEOR 单位 为 %， 越 高 效果 越 佳 。 

表 2 M-VAD 与 MPII-MD 数据 集 的 METEOR 评测 


Table 2 METEOR Evaluation of M-VAD andMPII-MD datasets 


方法 M-VAD MPII-MD 
Visual-Labels!!5l 6.3 7.0 
Mean pool(VGG)09 6.1 6.7 
S2VT:RGB(VGG)DI 6.7 7.1 
DBLSTM VGG&Wavelet Fusion 7.9 8.1 
DBMGU VGG&Wavelet_ Fusion 8.0 8.3 


tt 


分 析 表 2 可 知 ， 对 于 M-VAD 数据 集 而 言 ， 文 中 提出 的 2 
种 方法 在 METEOR 分 数 上 将 原 S2VT 模型 的 6.7%， 分 别提 高 
到 了 7.9% 和 8.0%; 同样 地 ， 在 MPII-MD 数据 集 上 ， 文 中 的 2 
个 方法 , 将 原 S2VT 模型 的 7.1%, 分 别提 高 到 了 8.1% 和 8.3%。 
一 方面 ， 两 种 方法 的 METEOR 评测 分 数 均 高 于 之 前 的 视频 转 
文字 方法 的 METEOR 分 数 ， 这 说 明 深度 双向 模 与 特征 融合 的 
有 机 结合 ， 可 以 提升 视频 转 文字 的 准确 率 和 语言 效果 。 另 一 方 
面 ， 本 文 提出 的 两 种 方法 ， 在 视频 特征 建 模 部 分 分 别 使 用 的 是 
DBLSTM 模型 和 DBMGU 模型 。 使 用 DBMGU 模型 ， 相 对 
DBLSTM 模型 ,METEOR 分 数 不 仅 没有 降低 甚至 还 略 有 提高 ， 
这 说 明 DBMGU 模型 虽然 比 DBLSTM 模型 少 了 近 一 半 的 参数 ， 
但 是 所 生成 的 句子 与 DBLSTM 所 生成 的 句子 在 语言 效果 上 相 
近 。 更 为 重要 的 是 , DBMGU 模型 可 以 有 效 的 降低 计算 复杂 度 ， 
降低 计算 开销 从 而 提高 视频 转 文 字 的 速度 。 
本 文 对 标注 句子 与 两 种 方法 生成 的 句子 进行 分 析 比 较 。 
篇 幅 限 制 ， 每 个 数据 集 挑选 三 个 例子 作为 示例 ， 如 图 7 所 示 。 
可 知 ， 两 种 方法 生成 的 句子 ， 不 仅 描述 准确 ， 而 且 相 对 标注 句 
子 包含 了 更 多 的 
所 提 方 法 ， 可 以 有 效 提升 视频 转 文字 的 1 E 确 3 


入 信息 ， 增 加 了 语言 的 丰富 性 。 验 证 了 本 文 
“和 语言 效果 。 


/A 1 了 
手工 标注 句子 ，They tour the campus. 
DBLSTM_VGG&VWavelet Fusion: Someone and someone walk up to the sidewalk. 
DBMGU_VGG&Wavelet_Fusion: Someone and someone watch as someone and 
someone walk up to the front lawn. 
(a) M-VAD 实例 1 
(a) M-VAD examplel 


手工 标注 句子 : Now a lunch date. 
DBLSTM_VGG&Wavelet_Fusion: Someone glances at someone who smiles and nods. 
DBMGU_VGG&Wavelet_Fusion: Someone glances at someone who sits on the couch 
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and smiles at Someone. 
(b) M-VAD 实例 2 
_(b) M-VAD example2 


EE A boy enters. 


DBLSTM_VGG&Wavelet_Fusion: Someone turns away and someone follows him to the door. 
DBMGU_VGGé& Wavelet_Fusion: Someone steps into the living room and finds someone staring at the 
door then faces someone. 

过 * 
(c) M-VAD 实例 3 
(c) M-VAD example3 


手工 标注 句子 ，She nods sleepily. 

DBLSTM VGG&Wavelet_Fusion: Someone is lying on the bed. 
DBMGU_VGG&Wavelet_Fusion: Someone sits on the bed and looks at her. 
(d) MPI-MD 实例 1 
(d) MPII-MD examplel 


手工 标注 句子 : He sits up. 
DBLSTM VGG&Wavelet _ Fusion: Someone is sitting on the bed. 
DBMGU VGG&Wavelet Fusion: Someone sits on the bed and looks at 
the ceiling. 
(e) MPII-MD 实例 2 
(e) MPII-MD example, So 


手工 标注 句子 : They turn and walk away together. 
DBLSTM_ VGG&Wavelet Fusion: Someone is walking along the 
sidewalk. 
DBMGU VGGe&Wavelet_Fusion: Someone walks up to the front of the 
house and looks at someone. 
人 MPILMD 实例 3 
(人 MPII-MD example3 


图 7 来 自 M-VAD 和 MPII-MD 数据 集 的 视频 描述 实例 
Fig.7 Video description examples from M-VAD andMPII-MD datasets 


4 ”结束 语 


本 文 针对 S2VT 方法 中 存在 的 描述 ; 


确 率 不 高 的 问题 ， 在 
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DBLSTM 与 特征 融合 的 视频 转自 然 语 言 方 法 的 基础 上 , 提出 基 
于 DBMGU 与 特征 融合 的 视频 转自 然 语言 方法 。 所 提 方 法 有 效 
地 改善 了 原 S2VT 模型 的 准确 率 和 语言 效果 。 其 中 ，DBMGU 
模型 的 参数 数量 仅 约 为 DBLSTM 模型 一 半 , 减少 了 计算 开销 ， 
提高 了 计算 速度 ， 却 取得 了 与 DBLSTM 模型 相近 的 语言 描述 
效果 ， 使 得 所 提 方 法 具有 广泛 的 应 用 场景 。 当 然 ， 当 前 的 工作 
还 存在 一 些 不 足 ， 在 后 期 的 研究 工作 中 ， 将 针对 S2VT 方法 的 
解码 模型 、 语 言 模型 等 方面 ， 做 进一步 的 改进 工作 。 
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